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摘 要 道德 认 知 关注 道德 心理 背后 的 信息 加 工 。 近 年 来 ， 研 究 者 开始 将 计算 模型 应 用 于 道德 认 知 研究 ， 以 
探索 道德 认 知 如 何在 大 脑 中 实现 。 但 目前 研究 者 对 道德 认 知 进行 计算 建 模 的 研究 处 于 起 步 阶段 。 计 算 模型 ( 漂 
移 扩 散 模 型 、 效 用 模型 、 强 化 学 习 模 型 和 分 层 高 斯 过 筛 器 模型 ) 在 道德 认 知 行为 和 生理 研究 上 的 运用 量化 了 道 
德 决策 、 道 德 判 断 和 道德 推理 背后 的 认 知 过 程 和 神经 机 制 。 此 外 ,这 一 新 进展 对 理解 反 社 会 行为 和 精神 障碍 
等 有 所 助 益 。 最 后 ,计算 建 模 有 待 完善 未 来 研究 需要 关注 其 潜在 的 问题 。 
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近日 ， 贺 建 奎 团队 完成 了 * 首 例 基因 编辑 婴 。 Crockett, 2019)。 本 文 将 回顾 道德 认 知 的 内 涵 、 计 
儿 诞 生 ” 的 实验 (参见 ，《 参 考 消息 》2019-01-23)。 算 模型 在 道德 认 知 领域 的 运用 以 及 其 如 何 促进 我 
对 此 , 许多 人 表示 , 贺 建 奎 的 行为 明显 违反 了 伦 们 对 道德 认 知 过 程 和 相关 神经 机 制 的 理解 。 
理 。 而 且 ， 贺 建 奎 的 道德 品质 也 受到 质疑 。 这 一 an 
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事件 的 争论 焦点 在 于 伦理 道德 问题 。 目 前 , 研究 | SENM 
者 对 道德 认 知 领域 进行 了 大 量 研 究 , 但 尚未 阐明 贺 建 奎 事件 包括 : (]) 贺 建 硅 做 出 基因 编辑 婴 
解决 道德 问题 特有 的 认 知 机 制 。 随 着 对 行为 数据 儿 的 决策 (decision-making); (2) 读 者 对 其 特定 选择 
的 计算 建 模 方法 日 臻 成熟， 研究 者 已 开始 将 计算 是 否 符合 道德 做 出 判断 Gudgment); (3) 进 一 步 , 读 
模 
í 


型 运用 于 道德 认 知 领域 。 计 算 模 型 以 数学 函数 者 会 对 其 的 道德 品质 做 出 推理 (inference)。 以 上 对 
形式 定量 地 描述 选项 特征 (如 代价 、 收 益 和 等 应 了 道德 认 知 的 三 个 维度 一 一 道德 决策 、 判 断 和 
待 时 间 ) 如 何 转换 为 效 价 ,进而 影响 决策 (Brown， 推理 (本 文 对 道德 认 知 的 分 类 参照 了 Yu 等 人 (2019) 
Te 的 划分 方式 !， 参见 Yu et al., 2018)。 它 们 的 定义 
Hu, & Ruff, 2018). Mit 近 的 研究 已 经 使 用 这 种 方法 MF: 道德 决策 是 指 人 们 做 出 影响 他 人 利益 的 选 
描述 道德 效 价 的 计算 ， 即 道德 问题 的 外 部 特征 (如 择 ; 道德 判断 是 指 人 们 判断 行为 或 心理 状态 (如 情 
利益 、 伤 害 等 ) 如 何 转化 为 内 部 效用 ， 以 及 该 效用 绪 、 态 度 等 ) 是 否 符合 道德 的 过 程 ， 有 时 包含 对 某 
如 何 指导 道德 决策 、 判 断 和 推理 (Hackel & Zaki, 种 行为 是 否 应 被 惩罚 或 奖励 的 判断 ; 道德 推理 是 
2018; Hutcherson, Bushong, & Rangel, 2015; Siegel, 人 们 基于 对 道德 相关 行为 的 观察 而 形成 对 行为 者 
Estrada, Crockett, & Baskin-Sommers, 2019; Siegel, 
Mathys, Rutledge, & Crockett, 2018; Yu, Siegel, & 


1 yu 等 人 (2019) 将 道德 认 知 分 为 道德 决策 .道德 判断 和 道德 


推理 三 个 维度 。 本 文 参考 了 这 种 划分 方式 , 并 在 其 基础 上 

收 稿 日 期 : 2019-04-22 对 道德 认 知 阐述 时 进行 了 补充 和 扩展 。 此 外 ， 等 人 提出 

* 国家 自然 科学 基金 (31872784，31600923), 广东 省 教 一 个 以 伤害 厌恶 为 核心 的 统一 计算 框架 来 解释 道德 认 知 ， 

育 厅 教育 科学 规划 青年 项 目 (2018GXJK150), 深圳 大 而 本 文 综合 考虑 了 不 同 模型 (漂移 扩散 模型 、 效 用 模型 、 强 

学 新 教师 科研 启动 项 目 资助 。 化 学 习 模 型 、 分 层 高 斯 过 得 器 和 效用 模型 ) 在 道德 认 知 研究 
通信 作者 : RE, E-mail: yinwu0407@gmail.com 中 的 应 用 。 
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道德 品质 (如 善 或 恶 ) 的 信念 (Yu et al., 2019)。 以 下 驱动 ， 是 缓慢 、 需 要 动机 和 认 知 资源 参与 的 过 程 。 


我 们 将 从 这 三 个 维度 展开 对 道德 认 知 的 心理 学 研 
究 的 介绍 。 
11 道德 决策 

道德 决策 涉及 个 体 的 选择 是 否 损害 他 人 的 利 
益 。 人 有 自 利 倾向 (Gray，1987)， 会 在 诚实 /不 诚 
实 、 公 平 /不 公平 和 慷慨 /自私 等 决策 之 间 进 行 权 
衡 。 以 诚实 决策 为 例 ， 人 们 会 做 出 诚实 决策 (放弃 
由 不 诚实 带 来 的 额外 收益 )， 还 是 不 诚实 决策 ( 获 
得 额外 收益 )? 以 往 研究 指出 ， 相 比 诚实 个 体 ， 不 
诚实 个 体 放弃 由 不 诚实 决策 获取 的 利益 的 时 间 更 
长 (Greene & Paxton, 2009)。 这 表明 不 诚实 个 体 在 
放弃 不 诚实 利益 的 过 程 可 能 产生 更 多 的 认 知 需 
求 。 而 且 当 人 们 做 不 诚实 选择 时 ,其 心理 和 生理 
ESSA SI ANTE (Cohn, Fehr, & Maréchal, 2014; 
Gachter & Schulz, 2016; Gamer, Rill, Vossel, & 
Gédert, 2006)。 为 了 减轻 这 种 不 适 感 ， 个 体会 减少 
不 道德 行为 。 此 外 ,， 背 外 侧 前 额 叶 皮层 损伤 的 个 
体 对 诚实 问题 的 敏感 性 降低 (Zhu et al., 2014), AF 
仁 核 的 激活 程度 与 个 体 不 诚实 行为 的 历史 呈 负 
相关 一 一 个 体 在 当前 不 诚实 决策 中 杏仁 核 激 活 的 
降低 程度 预示 着 下 一 决策 中 不 诚实 的 增加 程度 
(Engelmann & Fehr, 2016; Garrett, Lazzaro, Ariely, 
& Sharot, 2016). XX H E AMM A aH AA 
核对 诚实 决策 的 重要 作用 。 综 上 , 决策 往往 需要 
在 物质 利益 和 道德 价值 之 间 权 衡 , 但 当选 择 道德 
决策 时 ， 对 物质 利益 的 权重 会 减 小 ， 人 们 更 加 关 
心 如 诚实 、 慷 慨 等 道德 价值 。 
1.2 ”道德 判断 

道德 判断 基于 道德 决策 ， 指 人 们 判断 决策 或 
决策 者 应 被 给 予 奖励 还 是 施加 惩罚 。 电 车 困境 是 
研究 道德 判断 的 常用 范式 一 一 想象 一 辆 失控 的 电 
车 即将 撞 死 铁轨 上 的 5 名 工人 , 决策 者 可 以 选择 
什么 都 不 做 , 5 名 工人 会 死亡 ; 或 扳 动 开关 将 电车 
转向 一 个 侧 道 , 那里 的 1 名 工人 会 死亡 (Kamm， 
2015)。 根 据 人 们 对 两 种 选择 的 道德 认可 程度 ， 
Greene (2007) 提 出 道德 判断 的 双 过 程 模型 一 一 义 
务 性 和 功利 性 道德 判断 ， 即 支持 决策 者 什么 都 不 
做 是 一 种 义务 性 判断 (在 义务 论 道 德 体系 下 ，“ 不 
可 主动 杀人 ”是 一 项 道德 义务 )， 而 支持 决策 者 策 
牲 1 个 人 拯救 5 个 人 是 一 种 功利 性 判断 (在 功利 主 
义 道德 体系 下 , 1 人 死亡 比 5 人 死亡 价值 更 高 ); 前 
者 由 情感 驱动 ， 是 快速 、 自 动 的 过 程 ; 后 者 由 认 知 


研究 表明 , 在 产生 共 情 的 情况 下 , 个体 做 出 义务 
性 道德 判断 的 频率 增加 ; 而 个 体 与 受害 者 接触 较 
少 或 倾向 于 理性 思维 方式 时 ， 做 出 功利 性 道德 判 
断 的 频率 增加 (Elqayam，Wilkinson， Over, 
& Evans, 2017; Greene, 2014) 。 进 一 步 发 现 ,血清 
sels re sien rns ae 恶 ， 降 低 人 们 做 
出 功利 性 判断 的 可 能 性 (Crockett，Clark，Hauser， 
人 Robbins，2010)。 相 反 ， 腹 内 侧 前 额 叶 皮层 损伤 
的 个 体 做 出 异常 高 的 功利 性 判断 (Koenigs et al., 
2007)， 表明 腹 内 侧 前 额 叶 皮层 是 直觉 的 、 情 感 系 
统 的 关键 神经 基质 ， 对 正常 的 道德 判断 至 关 重 
要 。 综 上 ， 伤 害 厌恶 是 一 种 亲 社 会 情绪 ， 直 接 影 响 
道德 判断 和 道德 行为 ,也 在 治疗 反 社 会 和 攻击 性 
行为 中 的 应 用 有 一 定 的 启示 。 
1.3 ”道德 推理 
道德 推理 的 核心 是 由 可 观察 的 、 已 知 的 现象 

(如 他 人 的 外 显 行为 ) 推 断 内 隐 的 、 未 知 的 状态 (如 
WATAN 9 后 的 动机 或 他 人 的 道德 品质 )。 近 年来， 

道德 推理 研究 的 焦点 是 对 行为 的 评价 ， age 
出 影响 他 们 进行 道德 推理 的 特征 。 人 研究 表明 ， 
性 行为 (如 偷盗 ) 比 正 性 行为 (如 捐赠 ) 更 和 
体 的 道德 品质 (Eisenegger, Naef, Snozzi, Heinrichs, 
& Fehr, 2010; Uhlmann, Pizarro, & Diermeier, 
2015)。 捐 赠 可 能 由 其 他 动机 驱动 (如 维护 自己 的 社 


会 地 位 ), 供 人 推理 的 信息 比较 少 ; 而 偷盗 的 动机 
大 多 是 负面 的 (如 利 已 、 反 社会 等 )， 从 而 更 容易 推 


断 偷盗 者 的 道德 品质 。 这 表明 个 体 进行 道德 推理 
时 受信 息 量 高 低 的 影响 。 另 有 研究 表明 ， 人 们 通 
常 给 予 伪 君 子 (一 边 遵 责 不 道德 行为 ， 一 边 做 着 不 
道德 行为 的 人 ) 负 性 评价 (Jordan, Sommers, Bloom, 
& Rand, 2017; Levine, Barasch, Rand, Berman, & 
Small, 2018)。 然 而 ， 伪 君子 通过 承认 不 道德 行为 
来 避免 向 他 人 发 出 虚假 信号 ， 人 们 对 他 们 的 评价 
Wn 这 表明 人 们 对 行为 者 发 出 虚假 上 


oa a 


IAS eR, eh, A E ITA MET 
偷 了 一 只 死 鸡 ) 比 无 害 但 不 洛 的 行为 (如 煮 食 自己 


死去 的 宠物 狗 ) 更 不 道德 但 后 者 中 行为 者 的 道德 
品质 更 低下 (Uhlmann & Zhu, 2014)。 这 表明 ， 以 个 
体 品 质 为 中 心 的 道德 推理 ， 通 常 比 行为 的 后 果 或 
是 否 违背 道德 准则 更 重要 。 综 上 , 道德 推理 是 深 
思 熟 虑 的 和 直觉 的 过 程 (Garon, Lavallée, Estay, & 
Beauchamp, 2018)。 
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2 计算 模型 

计算 机 的 发 展 与 应 用 加 快 了 计算 建 模 研 究 的 
速度 ,为 科学 研究 提供 了 更 先进 、 严 并 的 手段 。 
计算 模型 以 数学 函数 的 形式 , 将 实验 中 可 观察 到 
的 变量 (如 刺激 .结果 或 过 去 的 经 验 ) 与 近期 的 行为 
联系 起 来 ， 并 对 行为 产生 的 不 同 算法 假设 进行 量 
化 。 研 究 者 们 通过 将 实验 数据 与 模型 进行 拟 合 ， 
探究 行为 背后 的 算法 , 使 用 精确 的 数学 模型 更 好 
地 理解 行为 数据 。 

近年 来 ,计算 模型 在 心理 学 研究 领域 被 广泛 
应 用 ， 如 感知 觉 .决策 .记忆 和 学 习 等 方面 。Jiang， 
Summerfield 和 Egner (2016) 将 计算 模型 与 行为 和 
神经 成 像 数 据 结合 起 来 ,揭示 了 视觉 对 象 不 同 的 
特征 预期 (和 注意 力 ) 如 何在 驱动 感知 决策 和 神经 
表征 的 过 程 中 相互 作用 ,并 表明 视觉 对 象 是 预测 
视觉 的 选择 单位 。 简 单 地 说 ， 当 视觉 对 象 的 一 个 
特征 在 预期 之 外 时 ， 这 种 预测 误差 会 传播 到 其 他 
寺 征 ， 使 该 对 象 的 其 他 特征 也 在 预期 之 外 ， 于 是 
该 视觉 对 象 整体 在 预期 之 外 。 此 外 ， 人 们 也 会 从 经 
验 中 获得 的 价值 预期 生成 决策 ,Meder 等 人 (2017) 
提出 个 体 在 决策 过 程 中 同时 表征 一 系列 动态 变化 
的 价值 评估 可 以 作为 一 种 灵活 的 选择 机 制 , 将 经 
验 获 得 的 价值 信息 与 价值 的 其 他 特征 结合 起 来 ， 
从 而 在 变化 的 环境 中 做 出 自 适应 的 决策 。 为 了 更 
好 的 适应 环境 , 个 体 可 能 依据 外 部 环境 或 自身 状 
态 来 灵活 地 调整 对 选项 所 赋予 的 价值 ， 从 而 形成 
主观 偏好 。Ai 等 人 (2018) 通 过 建立 数学 模型 ,将 
决策 与 记忆 的 动态 提取 过 程 相 结 合 , 证 明了 主观 
好 变化 与 睡眠 状态 下 相关 记忆 的 巩固 有 关 。 更 
有 价值 的 是 , 研究 者 们 利用 计算 模型 探究 精神 障 
碍 (如 创伤 后 应 激 障碍 ) 和 生理 损伤 (如 基底 核 损伤 ) 
患者 的 学 习 机 制 , 为 其 恢复 正常 功能 的 治疗 提供 
有 力 证 据 (Brown et al., 2018; Zhu, Jiang, Scabini, 
Knight, & Hsu, 2019)。 这 些 研究 对 心理 学 以 及 临 
床 医学 领域 的 未 来 研究 都 有 着 重要 的 启示 意义 。 
事实 上 , 道德 认 知 在 日 常生 活 和 心理 学 中 都 
占有 举足轻重 的 地 位 。 为 阐明 道德 决策 、 道 德 判 
断 和 道德 推理 的 认 知 过 程 和 神经 机 制 , 将 计算 建 
模 这 一 强大 的 手段 运用 于 道德 认 知 领域 也 是 应 时 
而 生 的 。 以 下 将 回顾 在 道德 认 知 及 其 他 领域 运用 
都 比较 广泛 的 计算 模型 一 一 漂移 扩散 模型 、 效 
模型 、 强 化 学 习 模型 和 分 层 高 斯 过 得 器 模型 。 


=> 


a 


2.1 ”漂移 扩散 模型 

漂移 扩散 模型 (Drift Diffusion Models, DDM) 
最 早 由 Ratcliff (1978) 开 发 ， 它 把 决策 描述 为 一 个 
连续 的 抽样 过 程 ， 即 带 有 噪声 的 信息 从 起 点 累积 
到 对 应 于 某 一 选项 的 边界 或 阅 值 ( 即 标 准 )， 该 选 
项 被 选中 (Ratcliff & McKoon, 2008)。 公 式 如 下 : 

dy(t) =v(Au)-dt+o-dW 

公式 中 y( 人 是 在 时 间 1 时 积累 的 信息 量 ; Ar 
是 两 个 选项 边界 的 差异 ; v 是 信息 累积 的 速度 ( 即 
漂移 率 );，o 是 维 纳 过 程 dW 的 高 斯 噪声 参数 。 此 
外 , DDM 的 参数 还 包括 起 始点 偏 移 量 、 边 界 高 度 
和 非 决 策 时 间 等 。 漂 移 率 代表 偏好 强度 ， 即 个 体 
倾向 于 某 一 选项 的 偏好 越 强 烈 ， 信 息 向 该 选项 积 
累 的 速度 就 越 快 。 每 个 选项 均 有 一 个 边界 ， 边 界 
表示 在 做 出 反应 之 前 必须 积累 的 信息 量 。 而 积累 
过 程 是 有 噪声 的 , 在 任意 时 刻 , 信息 可 能 指向 两 
个 边界 中 的 一 个 , 但 更 多 的 时 候 指向 正确 的 边界 。 
而 非 决 策 成 分 包括 对 刺激 的 编码 (该 刺激 将 驱动 
决策 过 程 ) 和 从 刺激 或 记忆 中 提取 构成 决策 基础 
的 刺激 的 维度 。DDM 可 以 将 潜在 的 认 知 过 程 体现 
在 模型 不 同 的 成 分 上 。 例 如 ,信息 积累 的 速度 、 
边界 高 度 和 非 决 策 过 程 的 持续 时 间 (Mormann, 
Malmaud, Huth, Koch, & Rangel, 2010; Lerche & 
Voss, 2019; Voss, Rothermund, & Voss, 2004). 而 且 
DDM 考虑 了 所 有 的 行为 数据 ， 即 正确 反应 和 错 
误 反 应 的 反应 时 分 布 的 形状 和 位 置 (Ratclift， 
Smith, Brown, & Mckoon, 2016; Ratcliff, Thapar, & 
McKoon, 2004), 

DDM 最 初 适 用 于 基本 的 知觉 和 记忆 任务 等 
的 反应 时 研究 ,例如 单项 识别 和 联想 识别 任务 
(Ratcliff, 1978; Ratcliff, et al., 2004) 、 知 觉 任 务 ( 包 
括 亮 度 、 字 母 、 注 意 定向 等 ) 等 (Ratcliff, Thapar, & 
McKoon, 2003; Thapar, Ratcliff, & McKoon, 2003; 
Smith, Ratcliff, & Wolfgang, 2004). if 10 至 15 年 
间 , DDM 在 决策 过 程 的 心理 和 神经 机 制 研究 中 变 
得 越 来 越 重 要 ,包括 感知 觉 决策 、 简 单 的 运动 决 
策 和 基于 价值 的 决策 等 。Gold 和 Shadlen (2007) 
回顾 基本 的 决策 形成 要 素 如 何在 大 脑 中 实现 ， 从 
而 提出 决策 是 一 个 权衡 先 验 、 证 据 和 价值 的 过 程 ， 
并 描述 了 与 关键 决策 要 素 ( 包 括 深 思 熟 虑 和 人 情感 
认同 ) 相 对 应 的 具体 数学 运算 。 他 们 也 揭示 了 感知 
任务 的 速度 一 一 正确 性 权衡 和 简单 运动 任务 的 可 
变 的 反应 时 的 一 种 基本 机 制 一 一 将 变化 的 决策 变 
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量 ( 随 时 间 累 积 并 存储 证 据 ) 与 固定 标准 进行 比较 
的 决策 规则 。 此 外 , Krajbich, Armel 和 Rangel (2010) 
也 用 DDM 对 注视 模式 和 选择 之 间 的 关系 进行 定 
量 预测 。 结果 发 现 ， 在 DDM 的 简单 扩展 中 ,注视 
点 参与 价值 整合 过 程 ， 可 以 定量 地 解释 注视 点 和 
选择 之 间 的 各 种 关系 ， 以 及 一 些 相当 大 的 选择 偏 
差 。 而且 Krajbich 等 人 发 现 视觉 注视 过 程 与 价值 
比较 过 程 存在 因果 关系 。 即 通过 外 源 性 操纵 相对 
注视 时 间 , 个 体 可 能 对 选择 产生 偏 位。Eikemo， 
Biele, Willoch, Thomsen 和 Leknes (2017) 研 究 阿片 
类 药物 对 健康 人 类 基于 价值 的 决策 的 调节 时 ,用 
DDM 拟 合 了 正确 率 和 反应 时 的 数据 ， 从 而 揭示 
两 个 决策 子 过 程 预期 的 双向 药物 效应 。 总 之 ， 


究 方 法 在 一 定 程度 上 解读 了 代表 自我 和 他 人 潜在 
利益 的 神经 机 制 ， 对 于 理解 社会 决策 至 关 重 要 。 
此 外 ，Lopez-Persem, Rigoux,，Bourgeois-Gironde, 
Daunizeau 和 Pessiglione (2017) 在 不 同 任务 中 得 
到 了 相同 的 效用 函数 ， 并 且 对 选择 的 预测 准确 性 
很 高 。 这 表明 了 可 比较 的 效用 函数 不 仅 可 以 解释 
经 济 选择 ， 而 且 可 以 解释 不 同 的 动机 导向 行为 。 
值得 注意 的 是 ， 效 用 模型 假设 个 体 的 偏好 是 固定 
的 。 因 为 如 果 根 据 价 格 或 预算 变化 来 改变 人 们 的 
行为 ,将 无 法 确定 行为 变化 在 多 大 程度 上 是 由 于 
价格 或 预算 变化 还 是 偏好 的 改变 所 致 。 
2.3 ”强化 学 习 模 型 

上 述 的 漂移 扩散 模型 和 效用 模型 被 广泛 应 用 


DDM 可 以 描述 个 体 如 何 使 用 先 验 、 证 据 和 价值 来 
形成 决策 ， 揭 示 多 种 形式 的 决策 (如 知觉 决策 、 简 
单 的 运动 决策 和 基于 价值 的 决策 等 ) 背 后 的 一 般 
原则 。 
2.2 ”效用 模型 

DDM 通常 用 于 只 有 两 个 备 选 方案 的 实验 任 
务 ( 即 二 选 一 )， 且 实验 每 个 条 件 的 试 次 数量 要 多 ， 
而 效用 模型 (Utility Models) 可 以 更 好 地 解释 有 更 
多 选项 的 情况 。 在 经 济 学 领域 , 效用 函数 用 于 衡 
量 与 一 组 商品 和 服务 有 关 的 偏好 。 效 用 常常 与 幸 
福 感 和 满意 度 等 有 关 ， 而 这 些 难 以 直接 观测 。 因 
此 ,经 济 学 家 利用 效用 函数 来 表征 这 些 抽象 的 、 
不 可 直接 测量 的 变量 (Debreu,1954)。 后 来 , 效用 孔 
数 被 用 于 社会 决策 领域 , 它 将 可 供 选 择 的 选项 的 
价值 传达 给 决策 者 , 促使 决策 者 选择 价值 ( 即 效用 
最 大 的 选项 。 效用 模型 的 简单 公式 如 下 (假设 有 7 
个 选项 ): 


四 


a) 


res; 


AV =U,—-U, 

公式 中 Uj 是 选项 A 的 效用 ;Us 是 选项 B 的 
效用 ; AV 是 个 体 的 主观 价值 。 在 每 一 个 试 次 中 ， 
被 试 对 每 个 选项 有 不 同 的 偏好 ， 当 且 仪 当 被 试 更 
喜欢 选项 A 而 不 是 B 时 ,A 的 效用 量 才 大 于 Bo 
因此 ， 当 AV >0 时 个 体 才 会 选择 选项 A。 通 常 ， 
之 后 会 用 softmax 函数 估计 被 试 的 选择 概率 。 

在 社会 决策 领域 中 ,效用 模型 主要 用 于 探讨 
社会 偏好 或 道德 偏好 。 研 究 者 们 将 效用 模型 与 功 
能 磁 共 振 成 像 相 结合 ， 研 究 社会 价值 的 神经 表征 ， 
以 评估 他 们 对 自我 和 他 人 利益 的 分 配 (Liu et al., 
2019; Qu, Météreau, Butera, Villeval, & Dreher, 
2019; Zhong, Chark, Hsu, & Chew, 2016)。 这 种 研 


于 决策 领域 ， 而 强化 学 习 模 型 (Reinforcement 
Learning Models) 则 是 解决 决策 中 的 不 确定 性 问 
题 以 及 各 种 学 习 问 题 的 强大 工具 , 包括 与 游戏 相 
关 的 问题 (如 Tesauro，1995) 、 自 行车 骑 行 问 题 (如 
Randlev & Alstrom, 1998) 和 机 器 人 控制 (如 Riedmiller, 
Gabel, Hafner, & Lange, 2009) 等 。 许 多 不 同 的 强化 
学 习 算 法 已 经 开发 出 来 解决 这 些 问题 (Szepesvari， 
2010; Sutton & Barto, 1998), 学习 主体 通过 反复 试 
验 , 形成 刺激 与 结果 关联 来 优化 获得 未 来 奖励 的 
可 能 性 ， 从 而 灵活 地 选择 获得 奖励 的 行为 ， 这 一 
过 程 被 称 为 强化 学 习 。 强 化 学 习 的 关键 是 预测 误 
差 ， 即 预期 事件 和 获得 事件 之 间 的 差异 ， 然 后 用 
于 更 新 对 环境 中 事件 的 信念 (Sutton & Barto, 1998)。 
此 外 ,强化 学 习 模 型 中 最 典型 和 广泛 使 用 的 是 
Rescorla-Wagner 模型 ， 该 模型 通过 预测 误差 信号 
表征 学 习 , 概念 简单 ,计算 效 率 高 (Rescorla & Wagner, 
1972)。Rescorla-Wagner 模 型 假设 ,在 时 间 k 时 ,大 
脑 计算 和 更 新 行为 变量 Oi 的 值 如 下 : 
Qr = Op + a * or 

公式 中 a 是 学 习 率 ; $4 是 预测 误差 在 时 间 
收 到 的 实际 奖励 与 预期 奖励 之 间 的 差 值 ; O, 是 当 
前 的 期 望 ; O441 是 个 体 对 未 来 奖励 的 期 望 。 强 化 学 
习 系 统 的 目标 是 学 习 一 种 行为 策略 ， 使 个 体 选择 
的 动作 或 行为 获得 最 大 累计 奖赏 值 。 

强化 学 习 模型 解释 了 基于 行为 和 基于 结果 的 
价值 表征 之 间 的 区 别 , 将 其 与 自动 加 工 与 控制 加 工 
联系 起 来 ， 并 精确 地 阐明 了 认 知 和 情感 机 制 对 这 
两 种 类 型 的 加 工 的 贡献 。 一 方面 ， 基 于 模型 的 强化 
学 习 激 活 杏 仁 核 、 海 马 和 有 眶 额 皮 质 等 脑 区 (Andrews- 
Hanna, Reidler Sepulcre, Poulin, & Buckner, 2010; 
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Zsuga, Biro, Papp, Tajti, & Gesztelyi, 2016)。 上 有 具体 
Bh, WORS MM BAR IR Fit RB (BY HS 
果 之 外 的 事件 )， 而 海马 与 腹 侧 纹 状 体 联 合 编码 上 
下 文 ( 即 结果 的 偶然 性 )。 此 外 ， 眶 额 皮 层 由 海马 和 
杏仁 核 驱 动 ,将 与 奖励 相关 的 信息 整合 到 上 下 文 
框架 中 。 因 此 ， 眶 额 皮 层 将 提供 关于 预期 奖励 的 
信息 ， 从 而 计算 出 奖励 预期 (Wallis, 2007)。 另 一 方 
面 ， 无 模型 强化 学 习 也 能 够 激活 腹 侧 纹 状 体 (Zsuga 
et al., 2016)。 那 么 ， 眶 额 皮 层 提 供 的 奖励 预期 信息 
反馈 给 无 模型 系统 ， 基 于 腹 侧 纹 状 体 的 功能 连通 
性 , 使 腹 侧 纹 状 体 可 以 将 基于 模型 的 奖励 信息 与 
无 模型 的 奖赏 预测 误差 相 结合 ,计算 腹 侧 纹 状 体 
发 出 的 价值 信号 。 所 以 ， 基 于 模型 的 强化 学 习 和 
无 模型 强化 学 习 并 非 相 互 分 离 ， 而 是 具有 功能 连 
通 性 。 
24 ”分 层 高 斯 过 筛 器 模型 

强化 学 习 模型 为 简单 的 学 习 和 决策 行为 及 其 
神经 基础 的 功能 提供 了 强大 的 解释 。 但 是 在 现实 
中 , 涉及 许多 刺激 和 动作 的 情况 下 ,这些 算法 的 


一 期 望 + 学 习 率 x 
预测 误差 , HGF 的 更 新 方程 形式 如 图 1。 


us? 


当前 期 望 ”前 一 期 望 学 习 率 预测 误差 


= Hy +039 x(a? 一 SC 


(x) (x-1) 
4 =H 十 


cet) r P 1) 2 

wk eso P (9) +( 00 E x )) 

O: re = ~k 一 
3 2 人 + efi "+o a) + eis +o 


当前 期 望 前 一 期 望 学 习 率 预测 误差 


图 1 分 层 高 斯 过 和 饰 絮 的 更 新 方程 与 Rescorla-Wagner 
模型 结构 的 对 比 。 5 是 前 一 后 验 概率 ; uO 
是 当前 新 的 后 验 概 率 ( 具 体 参 数 参见 Mathys et 
al., 2011). 


Mathys SEA (2014) i:— 45 Fi HGF 如 何 为 加 
工 感知 中 的 不 确定 性 提供 一 种 通用 的 方法 ,将 
HGF 的 层次 结构 扩展 到 任意 数量 , 探讨 了 如 何 通 
过 更 新 方程 中 编码 的 变 分 自由 能 的 最 小 化 来 适应 
各 种 形式 的 不 确定 性 。 总 之 ,， HGF 为 理解 正常 和 
非 正常 学 习 提供 了 一 个 新 的 基础 ， 它 将 强化 学 习 


学 习 效 率 低 ， 不 能 及 时 捕捉 人 类 学 习 的 速度 ， 而 
造成 这 种 差异 的 一 个 原因 是 人 类 利用 了 现实 世界 
任务 中 国有 的 结构 来 简化 学 习 问 题 (Gershman & 
Niv, 2010)。 所 以 ,改进 强化 学 习 模 型 是 不 可 避免 
的 。Mathys, Daunizeau, Friston 和 Stephan (2011) 
受到 Behrens, Woolrich, Walton 和 Rushworth (2007) 
开创 性 工作 的 启发 ， 提 出 一 个 分 层 高 斯 过 筛 器 
(Hierarchical Gaussian Filter，HGF) 模 型 ， 用 于 在 
多 种 形式 的 不 确定 性 (如 环境 波动 和 感知 不 确定 
性 ) 下 的 个 体 学 习 。 该 模型 包含 了 一 个 状态 层次 结 
Fay, 这些 状态 在 时 间 上 演化 为 高 斯 随机 游 动 
(Gaussian random walks), 每 一 个 游 动 ( 除 第 一 级 
水 平 外 ) 的 幅度 大 小 由 层次 结构 的 下 一 个 最 高 水 
平 决定 。 水 平 之 间 的 耦合 由 参数 控制 。 这 些 参数 
编码 了 环境 中 关于 高 阶 结构 的 先 验 信 念 ， 使 模型 
能 够 解释 学 习 中 的 个 体 差异 包括 个 体 间 差异 以 及 
跨 时 间 的 个 体 差 异 。HGF 可 以 加 工 离散 状态 和 连 
续 状 态 ,， 并且 可 以 解释 环境 事件 与 感知 状态 之 间 
的 确定 性 和 概率 关系 ， 能 够 推导 出 控制 环境 中 突 
发 事件 的 所 有 隐藏 状态 的 后 验 期 望 的 封闭 式 更 新 
方程 ,使 得 HGF 计算 效率 很 高 ， 能 够 实时 学 习 。 
这 些 更 新 方程 的 形式 类 似 于 Rescorla-Wagner 模 
型 ， 为 强化 学 习 理 论 提 供 了 一 个 贝 叶 斯 类 比 。 
Rescorla-Wagner 模型 的 结构 是 : 当前 期 望 = 前 


置 于 一 个 通用 的 贝 叶 斯 方法 中 ， 从 而 将 其 与 概率 
论 中 的 最 优 原则 联系 起 来 。 它 为 解决 行为 者 的 感 
知 不 确定 性 提供 了 一 个 有 原则 的 、 灵 活 的 、 有 效 
的 同时 又 直观 的 框架 。 

HGF 是 一 种 学 习 模 型 ， 它 的 特点 是 假定 了 个 
体 进 行 社会 学 习 时 ， 形 成 关于 他 人 印象 的 过 程 发 
生 在 多 个 认 知 层面 上 。 在 这 里 以 两 个 认 知 层面 : 
外 显 和 内 隐 层 面 为 例 ， 外 显 可 观测 的 层面 是 他 人 
的 具体 行为 ， 内 隐 (hidden) 层 面 是 观察 者 内 心 (或 
说 头脑 里 ) 对 他 人 的 印象 ,HGF 可 以 计算 给 出 外 显 
层面 的 信息 ( 即 每 次 观察 到 他 人 的 具体 行为 ) 如 何 
推动 内 隐 层 面 的 表征 的 变化 ， 即 给 出 了 一 种 “ 生 
成 模型 "。Siegel 等 人 (2018) 选 用 HGF 来 探究 个 体 
道德 推理 的 计算 基础 及 其 时 间 动 态 ， 就 是 因为 它 
能 解释 内 隐 印 象 和 外 显 观察 到 行为 的 关系 ， 以 说 
明 外 显 行 为 观测 如 何 推 动 印象 形成 。 综 上 , 借助 
实用 的 方法 来 开发 人 类 认 知 的 计算 模型 ,这些 模 
型 基于 可 靠 的 概率 原理 ， 可 以 解释 日 常 思维 、 推 
理 和 学 习 的 丰富 性 和 复杂 性 。 


3 计算 模型 在 道德 认 知 领域 的 运用 
计算 模型 可 以 估计 道德 认 知 过 程 中 内 隐 的 、 


不 可 观测 到 的 潜在 成 分 (反映 认 知 过 程 的 参数 )。 研 
究 者 可 以 解释 和 预测 这 些 潜在 成 分 的 具体 认 知 加 
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TIE, 发展 与 完善 道德 认 知 的 心理 学 理论 。 计 
算 模 型 可 以 连接 道德 认 知 和 道德 神经 科学 , 通过 
不 同 层面 的 计算 模型 更 加 全 面 地 解释 和 预测 道 
德 认 知 的 神经 机 制 。 例 如 , 研究 者 利用 计算 模型 
结合 神经 影像 学 ,揭示 心理 学 理论 中 潜在 的 、 不 
能 直接 观察 到 的 、 与 行为 有 关 的 神经 活动 过 程 和 
认 知 加 工 成 分 ， 如 强化 学 习 中 的 关键 变量 一 一 奖 
赏 预测 误差 (Sven, Wolfgang, Peter, & John, 2017)。 
本 部 分 将 回顾 上 面 介 绍 的 漂移 扩散 模型 、 效 用 模 


与 漂移 率 呈 正 相 关 (Hutcherson et al., 2015; 
Konovalov & Krajbich, 2019)。 此 外 ,慷慨 误差 ( 错 
误 地 选择 给 予 他 人 更 多 金钱 ) 的 比率 明显 高 于 自 
私 误差 (错误 地 选择 保留 更 多 金钱 ) 的 比率 ,这 表 
明 当 个 体 获 得 的 奖赏 比 别人 获得 的 奖赏 更 有 价值 
时 ， 他 /她 的 慷慨 行为 可 能 反映 的 是 噪声 干扰 ， 而 
不 是 真正 的 亲 社 会 偏好 。 在 神经 层面 , 个 体 在 加 
工 自己 利益 的 过 程 中 , 腹 内 侧 前 额 叶 皮层 和 上 腹 侧 
纹 状 体 激活 更 强 ， 而 在 加 工 他 人 利益 的 过 程 中 ， 


型 、 强 化 学 习 模 型 和 分 层 高 斯 过 得 器 模型 如 何 运 
用 于 道德 认 知 领域 ( 见 表 1)。 
3.1 计算 模型 在 道德 决策 中 的 运用 

人 们 在 面 对 不 同 价值 的 选择 时 ， 并 不 总 是 依 
据 利益 最 大 化 原则 , 选择 价值 更 高 的 选项 (Behrens， 
Hunt, & Rushworth, 2019; Crockett, Kurth-Nelson, 
Siegel, Dayan, & Dolan, 2014; Crockett et al., 2015). 
研究 指出 ， 人们 考虑 到 他 人 的 利益 ， 而 做 出 偏 
离 自 己 利 益 最 大 化 选择 的 程度 与 其 道德 行为 呈正 
相关 (Hutcherson et al., 2015; Yu et al., 2019)。 

Hutcherson 等 人 (2015) 让 被 试 决 定 是 否 接 受 
给 自己 和 对 家 的 分 钱 方 案 ， 探 究 人 们 的 慷慨 决 
策 . 在 DDM 中 ,每 个 试 次 的 选择 都 基于 动态 变化 
的 随机 相对 决策 值 信号 , 来 估计 相 较 于 默认 方案 ， 
对 分 配方 案 的 预期 。 当 随机 相对 决策 值 信号 超过 
阅 值 时 ,被 试 会 做 出 反应 (如 果 是 正 值 ， 接 受 分 配 
WR; 反之 , 则 拒绝 分 配方 案 )， 反应 时 等 于 信息 
累积 时 间 与 非 决策 时 间 之 和 。 结 果 发 现 ， 对 他 人 
的 慷慨 程度 与 自己 的 权重 和 启动 阀 值 呈 负 相关 ， 


腹 内 侧 前 额 叶 皮 层 、 右 侧 里 顶 联 合 区 和 枫 前 叶 激 
活 更 强 。 这 表明 加 工 自 己 利益 和 他 人 利益 在 大 脑 
中 是 各 自 独 立 表 征 的 。 而 且 腹 内 侧 前 额 叶 皮层 将 
关于 自己 利益 和 他 人 利益 组 合成 一 个 整体 值 ， 并 
通过 DDM 的 算法 整合 分 配方 案 的 总 金额 来 做 出 
选择 。 通 过 DDM 对 决策 过 程 的 随机 相对 决策 值 
信和 号、 漂移 率 、 边 界 高 度 、 起 始点 偏 移 量 和 非 决 
策 时 间 成 分 参数 的 拟 合 而 推导 和 测试 出 ,与 自私 
决策 相 比 ,在 做 出 慷慨 决策 前 ， 与 选项 信息 累积 
和 价值 计算 相关 脑 区 更 活跃 。 这 些 研究 结果 揭示 
了 道德 价值 表征 背后 的 神经 计算 机 制 ， 并 表明 可 
能 通过 调节 腹 内 侧 前 额 叶 皮层 的 道德 价值 表征 来 
促进 亲 社 会 性 。 

Krajbich, Hare, Bartling, Morishima 和 Fehr 
(2015) 通 过 DDM 发 现 社会 决策 (自私 或 慷慨 ) 的 速 
度 和 一 致 性 可 以 通过 从 非 社 会 决策 (如 食物 选择 ) 
中 得 到 的 模型 参数 来 预测 ， 表 明 这 两 个 领域 的 决 
策 可 能 有 着 相同 的 加 工 模式 。 此 外 ， 对 于 社会 决 
策 是 单一 的 比较 过 程 还 是 双重 过 程 (直觉 的 和 深 
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思 熟 虑 的 ) 问 题 , Chen 和 Krajbich (2018) 提 出 归 因 
于 直觉 的 行为 可 以 作为 DDM 过 程 的 起 点 偏差 ， 
这 种 起 点 偏差 类 似 于 贝 叶 斯 框架 中 的 先 验 偏差 。 
在 独裁 者 博 穿 任务 中 ,被 试 对 如 何在 自己 和 对 家 
之 间 分 配 金钱 做 出 二 元 决策 。 结 果 发 现 , 在 时 间 
压力 下 ， 亲 社会 个 体 变 得 更 亲 社 会 ,而 在 时 间 延 
述 下 ， 亲 社会 个 体 数量 变 少 。 这 些 发 现 有 助 于 统 
一 关于 社会 决策 认 知 加 工 过 程 的 争论 。 

Crockett 等 人 (2014) 让 被 试 决定 是 否 给 自己 
和 他 人 施加 电击 以 换取 利益 (获得 金钱 数量 随 电 
击 数量 增加 而 增加 ), 来 探究 人 们 的 道德 决策 。 
Crockett 等 人 在 效用 模型 中 使 用 了 选项 与 默认 选 
项 之 间 的 金钱 差异 和 电击 差异 、 损 失 厌 恶 参 数 和 
伤害 厌恶 参数 ， 量 化 了 被 试 给 自己 和 他 人 带 来 的 
痛苦 的 相对 价值 。 当 伤害 厌恶 参数 等 于 0 时 , 决 
策 者 有 最 小 的 伤害 厌恶 ， 将 会 接受 任何 程度 的 电 
击 来 增加 自己 的 收益 ; 当 伤 害 厌 恶 参数 接近 1 时 ， 
决策 者 有 最 大 的 伤害 厌恶 ， 将 会 减少 自己 的 收益 
来 避免 电击 ,之 后 ,利用 softmax 函数 将 逐次 试验 
的 主观 价值 转化 为 选择 概率 。 结 果 发 现 即 使 个 体 
的 决策 完全 是 匿名 的 (未 来 不 会 受到 不 利 的 评判 
或 惩罚 )， 他 们 也 更 关心 他 人 的 痛苦 ， 而 不 是 自己 
的 痛苦 。 而 且 这 种 对 他 人 痛苦 的 关心 与 做 出 影 
他 人 的 决策 时 反应 较 慢 有 关 ， 与 道德 决策 过 程 中 
的 深思 熟 虑 一 致 。 计 算 模 型 确定 了 这 种 亲 社 会 倾 
向 的 精确 边界 ， 对 于 理解 人 类 道德 决策 具有 重要 
意义 。 

之 后 , Crockett 等 人 借助 效用 模型 研究 了 道德 
决策 中 的 生理 和 神经 机 制 。 结 果 发 现 ， 血 清 素 水 
平 的 升 高 ,增加 了 伤害 厌恶 和 在 决策 时 考虑 的 时 
间 ， 而 多 巴 胺 水 平 的 升 高 则 恰恰 相反 (Crockett，et 
al.，2015)。 血 清 素 和 多 巴 胺 在 调节 道德 行为 中 的 
这 些 独 特 作 用 ， 对 社会 功能 障碍 的 潜在 治疗 具有 
重要 意义 。 道 德 偏好 较 强 的 个 体 通过 伤害 他 人 获 
取 利 益 时 背 侧 纹 状 体 激活 较 低 ， 而 外 侧 前 额 叶 皮 
层 编码 了 这 种 罪恶 感 (Crockett, Siegel, Kurth-Nelson, 
Dayan, & Dolan, 2017)。 这 表明 伤害 厌恶 这 种 道德 
好 可 能 会 影响 指导 我 们 做 出 选择 的 价值 观 。 值 
得 注意 的 是 , 效用 模型 中 的 参数 会 随 着 不 同 的 道 
德 决策 问题 (如 诚实 公平 和 慷慨 ) 而 有 所 变化 (Gao 
et al., 2018; Hu et al., 2018; Saez, Zhu, Set, Kayser, & 
Hsu, 2015; Strombach et al., 2015; Zhu et al., 2014). 

相 较 于 传统 研究 方法 ,漂移 扩散 模型 和 效 
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模型 展示 了 计算 模型 的 价值 ， 并 为 道德 决策 的 本 
质 提 供 了 新 的 见解 。 它 们 都 很 好 地 解释 和 预测 了 
自己 利益 和 他 人 利益 的 权重 对 道德 决策 的 影响 。 
相 较 于 非 正式 模型 ， 漂 移 扩散 模型 和 效用 模型 中 
的 参数 虽然 会 随 着 道德 决策 范式 的 变化 而 变化 ， 
但 研究 者 们 对 其 有 统一 的 认识 使 得 这 些 计算 模 
型 的 解释 力 更 强 , 更 有 利于 它们 应 用 于 更 多 的 领 
域 中 。 
3.2 ”计算 模型 在 道德 判断 中 的 运用 

在 社会 中 ,由 于 某 些 行为 会 对 其 他 个 体 产 生 
影响 ,人 们 进而 会 判断 这 些 行为 对 他 人 是 有 益 或 
有 害 的 。Hackel 和 Zaki (2018) 采 取 改 编 的 独裁 者 
博弈 实验 范式 ， 即 在 每 轮 游 戏 中 ， 捐 赠 者 (高 财富 
和 低 财富 ) 选 择 与 接受 者 分 享 20% 或 50% 的 捐款 ， 
而 接受 者 获得 捐赠 者 分 享 的 金额 点 数 。 接 受 者 随 
机 地 与 捐赠 者 (2 名 高 财富 和 2 名 低 财 富 ) 配 对 ， 并 
反复 选择 与 哪 名 捐赠 者 互动 。 因 此 ,接受 者 同时 
了 解 每 个 捐赠 者 的 慷慨 程度 (分 享 20% 48 h 
慨 程 度 为 0, 分 享 50% 捐 款 的 慷慨 程度 为 1) 和 奖 
励 价 值 (20% 或 50% x 捐赠 金额 点 数 )。 接 下 来 接 
受 者 完成 一 项 互惠 任务 , 与 每 位 捐赠 者 分 享 金额 
点 数 作 为 回报 。Hackel 和 Zaki 利用 强化 学 习 模 型 
对 接受 者 的 互动 选择 进行 了 拟 合 ， 其 中 ， 奖 赏 预 
测 误差 反映 了 捐赠 者 的 奖赏 值 和 慷慨 程度 。 例 如 
捐赠 者 先 分 享 捐赠 的 20%， 后 分 享 50%， 就 会 使 
接受 者 产生 一 个 慷慨 预测 误差 ( 即 捐赠 者 表现 得 
比 接受 者 预期 的 更 慷慨 )。 接 受 者 对 慷慨 的 捐赠 者 
回报 更 多 (Nowak & Sigmund, 2005), 这 是 因为 接 
受 者 对 捐赠 者 进行 了 一 个 积极 正面 的 道德 判断 ， 
选择 对 其 进行 奖励 ,因此 强化 了 自己 的 捐赠 行为 。 
在 强化 学 习 之 后 ， 人 们 不 仅 喜 欢 慷慨 的 社交 伙伴 ， 
也 喜欢 那些 提供 大 量 物质 奖励 的 人 (Feldmanhall, 
Otto, & Phelps, 2018; Hackel, Doll, & Amodio, 
2015; Hackel & Zaki, 2018)。 由 此 可 以 发 现 ， 道德 
判断 是 可 以 动态 学 习 的 ,并 引发 了 后 续 人 研究 者 在 
道德 判断 和 亲 社 会 行为 的 学 习 过 程 的 深入 探讨 。 

Yu 等 人 (2019) 在 效用 模型 和 强化 学 习 模型 的 
基础 上 ， 提 出 一 个 以 伤害 厌恶 为 核心 的 计算 模型 ， 
将 道德 决策 、 判 断 和 推理 的 研究 问题 统一 起 来 ， 
为 揭示 道德 认 知 的 机 制 提供 了 独特 的 见解 。 在 道 
德 判断 方面 , 个 体 在 进行 道德 判断 时 ， 对 行为 者 
的 责备 程度 与 其 选择 伤害 他 人 而 产生 的 额外 痛苦 
呈正 相关 ,但 与 其 选择 伤害 他 人 而 产生 的 额外 利 
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益 呈 负 相 关 。 这 表明 ,尽管 个 体会 因 损害 他 人 利 
益 责 备 行为 者 ， 但 所 获得 的 利益 证 明了 部 分 伤害 
是 合理 的 (Crockett，et al., 2010; Xie, Yu, Zhou, 
Sedikides, & Vohs, 2014), MZ, 在 道德 判断 中 ， 
获得 利益 和 伤害 他 人 对 行为 者 受 责备 程度 的 影响 
相反 。 首 先 ， 人们 认为 伤害 他 人 多 于 伤害 自己 获 
得 利益 , 或 者 仅 通 过 伤害 他 人 获得 利益 ,都 会 增 
加 入 们 对 不 道德 行为 者 的 责备 程度 。 其 次 , 个 体 
自己 的 伤害 厌恶 偏好 调节 获得 利益 和 伤害 他 人 对 
责备 的 影响 , 所 以 那些 更 不 愿 使 他 人 痛苦 的 个 体 
更 关心 伤害 而 不 是 收益 , 在 判断 行为 者 应 该 被 责 
备 或 奖励 时 , 会 做 出 更 极端 的 责备 判断 。 综 上 ， 当 
行为 者 产生 的 负面 结果 影响 他 人 时 ， 基 于 伤害 厌 
恶 ， 会 让 判断 者 予以 更 多 的 惩罚 , 希望 能 够 降低 
行为 者 伤害 他 人 的 行为 。 

除了 伤害 厌恶 ,道德 判断 也 会 涉及 对 不 同 规 
模 和 可 能 性 的 结果 进行 评估 ， 例 如 电车 困境 中 的 
获救 人 数 和 获救 可 外 ane 和 Greene (2010) 
让 被 试 评估 牺牲 一 命 来 拯救 一 个 更 大 的 群体 
的 道德 可 接受 性 ， ee eis 
而 死亡 的 可 能 性 是 不 确定 的 ， 并 基于 简单 的 强化 
学 习 模 型 对 数据 进行 拟 合 分 析 。 结 果 发 现 ， 腹 内 
侧 前 额 叶 皮 层 对 生死 道德 判断 中 预期 值 的 主观 表 
征 进 行 编码 ， 而 腹 侧 纹 状 体 对 预期 道德 价值 特别 
人 敏感。 同样 ， 右 侧 前 脑 岛 对 死亡 概率 特别 敏感 。 
这 表明 ,对 影响 他 人 生死 侯 关 的 复杂 道德 决策 进 
行 判断 时 依赖 于 适应 更 基本 的 、 涉 及 物质 奖励 的 
自 利 决策 的 神经 回路 。Shenhav 和 Greene (2014) 
进一步 利用 基于 模型 的 强化 学 习 和 无 模型 的 强化 
学 习 对 数据 进行 拟 合 分 析 ， 发现 自 动 加 工 和 控制 
加 工 对 道德 判断 的 影响 之 间 的 关键 分 离 ， 且 由 不 
同 的 神经 结构 辅助 。 杏 仁 核 激活 反映 了 个 体 对 有 
害 的 功利 主义 行为 的 厌恶 和 责备 程度 。 在 这 种 综 
合 的 道德 判断 中 , 腹 内 侧 前 额 叶 皮层 优先 参与 相 
对 功利 主义 和 情感 评价 加 工 (Shenhav & Greene, 
2014)。 查 仁 核 和 腹 内 侧 前 额 叶 皮 层 的 功能 连接 随 
着 任务 中 情绪 输入 所 起 的 作用 而 变化 , 在 纯 功 利 
主义 判断 中 最 低 ， 在 纯情 绪 判断 中 最 高 (Shenhav 
& Greene, 2010, 2014)。 这 些 发 现 表 明 杏 仁 核对 所 
判断 的 行为 提供 了 情感 评估 ， 而 腹 内 侧 前 额 叶 皮 
层 则 将 这 种 信号 与 对 预期 结果 的 功利 主义 评估 结 
合 起 来 ， 得 出 经 过 深思 熟 虑 的 道德 判断 的 结果 。 
总 之 , 研究 者 对 道德 认 知 的 神经 基础 的 探索 发 现 ， 


在 道德 判断 过 程 中 ， 大 脑 区 域 始终 处 于 激活 状态 
(Crockett et al., 2017; Shenhav & Greene, 2010)。 进 
一 步 , 计算 模型 可 以 精确 地 指定 在 道德 判断 过 程 
中 由 大 脑 区域 提 供 的 计算 。 这 促进 了 道德 神经 科 
学 的 发 展 ， 并 加 强 了 观察 到 的 大 脑 和 行为 变化 之 
间 的 联系 。 
3.3 ”计算 模型 在 道德 推理 中 的 运用 

道德 推理 是 一 个 宽泛 的 概念 ， 是 个 体 指 出 影 
响 他 们 进行 道德 评价 的 行为 特征 (如 行为 的 结果 
和 行为 者 的 意图 等 ) 的 过 程 ， 不 一 定 是 对 善 与 恶 的 
推理 。 一 切 通过 社会 学 习 去 推断 他 人 特征 (如 个 体 知 
觉 和 印象 形成 等 ) 都 可 以 看 作 道德 推理 (Feldmanhall, 
Dunsmoor, et al., 2018; Hackel et al., 2015; Joiner, 
Piva, Turrin, & Chang, 2017; Suzuki et al., 2012)。 
在 社会 互动 中 , 推断 他 人 的 意图 (intention) 是 形成 
道德 印象 的 一 个 基本 问题 。 而 道德 推理 的 一 个 基 
本 挑战 是 人 类 如 何 了 解 他 人 的 特征 来 预测 自己 的 
决策 行为 。 人 研究 表明 ,攻击 者 的 道歉 不 仅 会 降低 
受害 者 的 反应 性 攻击 ,还 会 改变 攻击 者 对 冒犯 者 
FY A het AS E (Beyens, Yu, Han, Zhang, & Zhou, 
2015)。 因 此 ， 某 行为 的 道德 性 很 大 程度 上 取决 于 
行为 者 的 意图 对 他 人 行为 背后 的 意图 进行 推断 
是 道德 判断 和 道德 推理 重要 的 环节 。 

Siegel 等 人 (2018) 采 用 分 层 高 斯 过 得 器 来 控 
究 个 体 道德 推理 的 计算 基础 及 其 时 间 动 态 。 被 试 
(正常 大 学 生 ) 预 测 并 观察 了 两 名 行为 者 的 一 系列 
选择 一 一 是 否 对 另 一 个 人 施加 痛苦 的 电击 以 换取 
金钱 , 评估 他 们 对 行为 者 道德 品质 的 印象 以 及 不 
角 定 性 。 个 体形 成 关于 行为 者 道德 品质 的 信念 由 
PERS, SES T ETARA T 
行为 者 的 信念 ， 并 且 方 差 描 述 了 该 信念 的 不 确定 
eee as 
其 更 新 大 小 由 表示 信念 波动 的 个 体 差异 决定 。 结 
果 表 明 , 个 体 对 不 道德 行为 者 的 道德 信念 比 对 道 
德行 为 者 的 更 具 不 确定 性 ， 并 伴 有 更 快 的 学 习 速 
度 。 这 种 机 制 可 以 使 个 体 灵 活 地 更 新 关于 他 人 的 
信念 。 当 最 初 的 负面 道德 印象 被 证 明 不 准确 时 ， 
这 种 机 制 可 以 促进 宽恕 。 

之 后 ，Siegel 等 人 (2019) 同 样 采用 分 层 高 斯 过 
筛 器 研究 男性 服刑 人 员 接 触 暴 力 对 伤害 学 习 的 影 
响 。 结 果 发 现 接触 暴力 的 个 体形 成 了 整体 的 主观 
社会 印象 ,并 将 这 些 印 象 转化 为 社会 决策 , 但 会 
破坏 其 道德 推理 能 力 ( 认 为 道德 行为 者 不 值得 信 
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任 , 反而 认为 不 道德 行为 者 更 值得 信任 )， 从 而 导 
致 更 多 的 不 道德 行为 。 这 是 因为 人 们 错误 地 把 不 
好 的 特征 归于 好 人 会 破坏 现 有 的 关系 ,阻碍 建立 
新 的 关系 (Johnson, Blumstein, Fowler, & Haselton, 
2013)。 因 此 ,准确 地 推断 他 人 道德 品质 的 能 力 对 
健康 的 社会 功能 至 关 重要 。 从 道德 决策 到 道德 推 
理 是 一 个 社会 学 习 的 过 程 ， 探究 其 认 知 和 神经 机 
制 对 于 矫正 服刑 人 员 的 认 知 、 训 练 自 闭 症 和 抑郁 
症 等 精神 障碍 群体 适应 正常 的 社会 功能 等 有 重要 
意义 。 

Suzuki 等 人 (2012) 利 用 强化 学 习 模 型 ， 证明 
了 个 体 模仿 他 人 决策 包括 两 个 层次 的 学 习 信 号 。 
在 模仿 学 习 中 ,个体 同 时 呈现 两 种 不 同 的 预测 误 
差 信 号 一 一 模仿 他 人 的 奖赏 预测 误差 和 行为 预测 
误差 。 个 体 模仿 他 人 决策 时 ， 腹 内 侧 前 额 叶 皮层 
来 模仿 他 人 的 特征 以 生成 预测 ， 并 使 用 背 内 侧 前 
额 叶 皮 层 和 背 外 侧 前 额 叶 皮 层 来 辅助 行为 变化 以 
改进 预测 。Hackel 等 人 (2015) 也 利用 强化 学 习 模 
型 揭示 了 个 体 在 学 习 任务 中 通过 反馈 编码 了 奖赏 
和 特征 信息 。 除 了 特定 的 奖赏 加 工 外 ， 特 征 信息 
(如 慷慨 或 自私 等 ) 通 过 反馈 进行 编码 ,并 且 在 决 
策 过 程 中 ,特征 信息 可 以 支配 奖励 信息 。 这 两 种 
学 习 方 式 都 与 腹 侧 纹 状 体 的 预测 误差 信号 有 关 。 
对 他 人 的 印象 也 可 以 通过 基于 反馈 的 工具 学 习 形 
成 (Hackel et al., 2015)。 简 单 举例 阐述 ， 某 位 同学 
与 大 家 分 享 资 源 ， 可 能 不 仅 会 收 到 回报 ， 还 被 认 
为 有 慷慨 、 值 得 信任 与 合作 等 特质 。 于 是 她 /他 在 
其 他 情况 下 也 会 受到 重视 ， 比 如 更 愿 与 其 合作 。 
此 外 ，Joiner 等 人 (2017) 讨 论 了 自我 参照 和 他 人 参 
照 的 奖赏 预测 误差 . 这些 误差 与 多 个 大 脑 区 域 的 
激活 有 关 ( 如 纹 状 体 、 前 扣 带 皮层 、 前 额 叶 和 杜 顶 
联合 区 等 )) 有效 地 使 用 强化 学 习 模 型 来 调节 社会 
学 习 。 计 算 模型 的 应 用 促进 探索 社会 学 习 背 后 的 
神经 机 制 ， 并 增强 了 对 道德 推理 的 解释 力 。 


4 不 足 与 展望 


道德 行为 和 不 道德 行为 在 生活 中 普遍 存在 ， 
但 对 其 认 知 过 程 和 神经 机 制 的 研究 仍 处 于 起 步 阶 
段 。 本 文 回顾 了 道德 认 知 的 三 个 维度 (道德 决策 、 


得 注意 的 是 ， 漂 移 扩散 模型 、 效 用 模型 、 强 化 学 
习 模 型 和 分 层 高 斯 过 得 需 模 型 与 道德 决策 、 判 断 
和 推理 并 不 是 一 一 对 应 的 关系 。 计 算 模 型 更 多 地 
是 与 数据 类 型 和 实验 设计 相关 ， 而 心理 过 程 上 则 
可 能 没有 这 样 的 对 应 。 例 如 ， 漂移 扩散 模型 与 强 
化 学 习 模 型 结合 使 用 ， 应 用 于 道德 认 知 的 研究 中 ， 
这 可 以 作为 研究 者 们 将 来 研究 的 方向 。 相 较 于 传 
统 研究 方法 和 非 正 式 模型 ， 计 算 模 型 准确 地 描述 
道德 决策 、 判 断 和 推理 的 认 知 过 程 ， 以 及 其 潜在 
的 神经 关联 。 此 外 ,研究 者 使 用 计算 模型 来 研究 
道德 领域 的 问题 有 助 于 解决 关于 道德 认 知 中 伤害 
的 中 心地 位 的 争论 (Schein & Gray, 2015, 2018)。 

由 于 本 文 以 道德 认 知 领域 为 中 心 ， 所 以 未 详 
细 讨 论 使 用 上 述 计算 模型 进行 研究 的 其 他 领域 ， 
例如 ， 资源 分 配 (Konovalov et al., 2018) 、 精 神 障 碍 
(Chen, Takahashi, Nakagawa, Inoue, & Kusumi, 2015; 
Rothkirch, Tonn, Köhler, & Sterzer, 2017) 等 。 对 这 
些 领域 的 研究 也 明显 受益 于 计算 模型 的 使 用 。 注 
意 ,这 里 所 讨论 的 特定 模型 可 能 不 会 完全 地 适用 
于 所 有 类 型 的 社会 行为 ， 因 此 可 能 需要 开发 不 同 
的 计算 方法 。 本 文 着 重 梳理 了 几 个 在 道德 认 知 领 
域 广泛 应 用 的 计算 模型 以 及 它们 如 何 应 用 于 道德 
认 知 领域 。 所 以 ,研究 中 也 有 其 他 能 够 解释 道德 
认 知 问题 的 模型 我 们 没有 讨论 ， 如 多 项 加 工 树 模 
型 (预先 规定 了 不 同 的 过 程 如 何 作为 实验 输入 和 
行为 输出 ， 主 要 用 于 对 道德 两 难 问 题 的 研究 ; 刘 
We, T—, Beale, ems, 2019; Cameron, 
Payne, Sinnott-Armstrong, Scheffer, & Inzlicht, 2017; 


Gawronski, Conway, Armstrong, Friesdorf, & Hütter, 
2018) 和 部 分 观测 者 马尔 科 夫 决策 过 程 模型 (是 贝 
叶 斯 模型 的 一 种 ， 主 要 用 于 探讨 社会 情境 下 的 信 
念 学 习 ; Khalvati et al., 2019) 等 。 目前 ， 没 有 一 个 
单一 的 计算 模型 可 以 为 道德 认 知 提供 一 个 明确 和 
统一 的 机 制 。 正 如 简单 地 为 机 器 人 提供 一 组 “如 
果 - 那 么 ”的 规则 来 适应 特定 的 情况 非常 困难 ， 因 
为 机 器 人 可 能 发 现 自己 处 于 无 限 多 的 情况 中 。 从 
单一 研究 中 得 出 的 参数 也 不 能 作为 适用 于 道德 认 
知 的 各 个 组 成 部 分 的 数字 权重 的 最 终结 论 。 

前 面 的 部 分 已 经 介绍 了 使 用 计算 模型 来 研究 


判断 和 推理 ) 以 及 几 个 在 道德 认 知 领域 广泛 运 
的 计算 模型 (漂移 扩散 模型 、 效 用 模型 、 强 化 学 习 
模型 和 分 层 高 斯 过 筛 絮 模型 )， 并 梳理 这 些 计 算 模 
型 如 何 阐明 道德 心理 的 认 知 过 程 和 神经 机 制 。 值 


ag 


道德 认 知 的 一 些 优 点 ， 这 里 强调 与 这 种 方法 相关 
的 潜在 问题 。 首 先 , 使 用 不 同 的 模型 来 获得 价值 、 
信念 或 选择 过 程 会 存在 一 定 的 风险 一 一 模型 的 选 
择 (而 不 是 行为 本 身 ) 决 定 了 研究 者 研究 的 重点 。 例 


chinaXiv:202303.09432v1 


ChinaXiv 合 作 期 刊 


第 7 期 张 银 花 等 : 计算 模型 在 道德 认 知 研究 中 的 应 用 1051 


如 ,用 于 解释 信念 学 习 或 偏好 的 模型 (和 任务 ) 不 
El, 至少 驱 动 这 些 行为 的 过 程 中 的 一 些 差 异 反映 
了 不 同 计算 模型 的 使 用 。 道 德 认 知 领域 的 进一步 
em 的 方法 来 对 不 同类 型 的 认 知 
进行 建 模 。 这 个 问题 可 以 通过 信任 的 相关 研究 来 


或 认 知 表 型 ， 描 述 特定 临床 或 亚 临床 和 精神 状态 
如 何 影 响 道德 认 知 和 行为 ， 如 抑郁 症 (Chen et al., 
2015; Rothkirch et al., 2017) 、 精 神 分 裂 症 (Valton， 
Romaniuk, Steele, Lawrie, & Series，2017) 和 人 格 
障碍 (Tyrer, Reed, & Crawford, 2015) 等 。 因 此 , 使 


说 明 ， 个 学 习 问 题 由 于 信 
任 他 人 使 自己 容易 受到 他 人 的 背叛 ， 人 们 必须 解 
决 潜在 利益 与 至 少 三 种 其 他 担忧 之 间 的 冲突 : 损失 
厌恶 、 不 公平 厌恶 和 背叛 厌恶 (Bohnet & Zeckhauser, 
2004)。 很 少 有 研究 考察 在 信任 -不 信任 决策 中 这 
些 厌恶 背后 的 神经 计算 机 制 ， 这 些 机 制 可 以 用 混 
合 模 型 对 这 些 不 同 的 关注 点 分 配 权重 来 研究 
(Nave, Camerer, & McCullough, 2015). 

其 次 , 虽然 计算 模型 可 以 促进 研究 者 对 道德 
认 知 的 理解 和 预测 , 但 它们 提供 对 潜在 认 知 、 学 


计算 模型 不 仅 极 大 地 促进 我 们 对 人 类 道德 的 理 
解 ， 而且 也 逐渐 地 运用 于 计算 精神 病 学 和 其 他 疾 
病 , 希望 减少 人 类 在 疾病 方面 的 痛苦 。 


5 结论 


描述 道德 决策 、 判 断 和 推理 的 计算 模型 代表 
了 量化 道德 认 知 以 及 客观 指导 理解 道德 行为 的 认 
知 过 程 的 第 一 步 。 这 些 计 算 模 型 以 数学 方程 的 
式 描述 了 道德 选择 的 输入 如 何 转 化 为 输出 。 计 算 
模型 的 优势 在 于 它们 提供 了 一 种 通用 的 数学 语言 ， 


Sar 


NS 


习 和 过 程 的 看 法 有 限 。 一 些 模型 适合 行为 和 大 脑 
活动 , 这 在 很 大 程度 上 是 因为 它们 能 够 灵活 地 适 
应 许多 不 同 模式 的 数据 。 因 此 ,实证 研究 应 该 努 
力 提供 证 据 , 证 明 模型 的 潜在 参数 实际 上 反映 了 
可 以 通过 实验 干预 选择 性 的 改变 (Hill et al., 
2017)。 最 终 ， 好 的 模型 是 那些 能 够 构建 关于 驱动 
道德 认 知 研究 的 模型 ， 正如 经 典 理 论 一 样 , 但 是 
现在 有 了 一 个 更 加 定量 和 机 械 论 的 焦点 。 本 质 上 ， 
所 有 的 模型 都 是 错误 的 , 但 有 些 是 有 用 的 ， 可 以 
为 道德 认 知 理论 做 出 贡献 。 

最 后 ， 由 于 模型 构建 过 程 本 身 是 比较 多 样 和 
灵活 的 ， 因此 如 何 能 够 保证 计算 模型 不 被 滥用 和 
误 用 也 是 非常 重要 的 。Lee 等 人 (2019) 提 出 了 一 种 
技术 和 实践 方法 , 包括 预 注册 模型 、 提 供 模 型 并 
在 探索 性 模型 开发 后 注册 、 对 模型 进行 详细 的 评 
估 和 注册 建 模 报 告 ， 使 心理 建 模 更 加 透明 、 可 信 、 


可 以 用 来 比较 不 同道 德 认 知 研 究 的 效果 大 小 。 随 
着 越 来 越 多 的 研究 应 用 这 些 计 算 模 型 ， 研 究 者 们 
WRAL, ATE Ft By BY a 
道德 决策 、 判 断 和 推理 成 分 为 道德 认 知 领域 完 

某 种 理论 或 提出 新 的 理论 )， 也 可 以 为 临床 领 
供 经 验 和 帮助 (如 计算 精神 病 学 )。 目前 ,计算 模型 
在 道德 认 知 领域 的 研究 刚刚 起 步 ， 相对 少数 的 模 
型 可 以 捕捉 到 道德 认 知 的 大 部 分 方面 , 或 者 ， 人 
类 道德 的 丰富 性 和 复杂 性 可 能 无 法 归结 为 一 组 可 
管理 的 数学 方程 ,这 是 有 待 研究 者 们 解决 的 问题 。 
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视 的 方面 是 根据 观测 数据 模拟 候选 模型 (Palminteri, 
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烈 社会 赞许 性 成 分 的 特征 方面 可 能 不 太 可 靠 。 此 
外 ,模型 参数 可 作为 生物 学 和 现象 学 的 中 间 水 平 
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The application of computational modelling in the studies of moral cognition 


ZHANG Yinhua; LI Hong; WU Yin 
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Affective and Social Cognitive Science, Shenzhen 518060, China) 


Abstract: Moral cognition focuses on the processing of information underlying the moral behavior. 
Recently, researchers have begun to apply computational modelling to moral cognition as to explore how 
moral cognition is represented in the brain. However, the research on the computational modeling of moral 
cognition is still at its infancy. The application of computational modelling (the Drift Diffusion Models, 
Utility Models, Reinforcement Learning Models and Hierarchical Gaussian Filter) in the behavioral and 
physiological studies of moral cognition quantified the cognitive processes and neural mechanisms 
underlying moral decision-making, moral judgment, and moral inference. In addition, this new approach 
could help to understand antisocial behavior and mental disorders. Finally, the computational modeling 
needs to be improved and future research need to pay attention to the potential limitations. 
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